標簽【imitation learning】

發表時間：2021 文章要點：這篇文章提出了一個Decision Transformer的模型，在offline RL的設定下，不直接去擬合數據，不需要做policy improvement，就可以 ...